A continuación se presenta un breve resumen de la estructura de la base de datos en cuestión
| bcs | pindex | enzyme_test | liver_test | age | gender | alc_mod | alc_heavy | y |
|---|---|---|---|---|---|---|---|---|
| 6.7 | 62 | 81 | 2.59 | 50 | 0 | 1 | 0 | 695 |
| 5.1 | 59 | 66 | 1.70 | 39 | 0 | 0 | 0 | 403 |
| 7.4 | 57 | 83 | 2.16 | 55 | 0 | 0 | 0 | 710 |
| 6.5 | 73 | 41 | 2.01 | 48 | 0 | 0 | 0 | 349 |
| 7.8 | 65 | 115 | 4.30 | 45 | 0 | 0 | 1 | 2343 |
ahora se presentan algunos gráficos para tener una idea de cuales variables pueden ser importantes para el modelo.
Observe que los histogramas para las distribuciones continuas son todos asimétricos lo cual sugiere que estas variables no se distribuyen normal.
Observe que las correlaciones entre las variables numéricas es moderada lo es deseable para evitar potenciales problemas de multicolinealidad. Por otro lado, los boxplots no muestran diferencias entre los promedios de edad respecto al género o consumo de alcohol (ya sea moderado o alto).
A continuación se realiza el proceso de selección de variables y modelos usando las metodologías directa (usando cross - validation) e indirecta (usando mejor subconjunto, selección hacia adelante y hacia atrás).
Observe que la suma cuadrática de los residuales no tiene una gran disminución a partir del modelo con 4 covariables. Por otro lado, según las métricas \(R_{\text{Adj}}^2, \ C_p \text{ de Mallows y } BIC\) los mejores modelos son aquellos que contienen 4 o 5 covariables, sin embargo no se sabe cuales son dichos regresores por lo que se procede a buscarlos.
Se tienen las siguiente covariables como las más importantes